Project-Team:Maxplus

Inria | Raweb 2013 | Presentation of the Project-Team Maxplus | Maxplus Web Site


	PDF	e-Pub

Previous |

Home | Next next

Section: New Results

Algorithmes/Algorithms

Itération sur les politiques pour le contrôle stochastique et les jeux répétés à somme nulle/Policy iterations for stochastic control and repeated zero sum games

Participants : Marianne Akian, Jean Cochet-Terrasson [CGA] , Sylvie Detournay, Stéphane Gaubert.

L'algorithme d'itération sur les politiques est bien connu pour résoudre efficacement les équations de la programmation dynamique associées à des problèmes de contrôle stochastique avec critère à horizon infini (Howard) ou ergodique (Howard, et Denardo et Fox). Récemment, il a été généralisé au cas de problèmes de jeux à deux joueurs et somme nulle dégénérés (avec paiements ergodiques et de type “multi-chaîne”), au moyen de techniques d'algèbre max-plus et de théorie du potentiel non linéaire [84] . Chaque itération de base de cet algorithme utilise la résolution d'un système d'équations linéaires dont l'opérateur est monotone, mais dont la taille peut être grande, soit parce qu'il provient d'une discrétisation fine d'une équation aux dérivées partielles, soit parce qu'il est associé à un problème discret de grande taille comme le graphe du Web.

La thèse de Sylvie Detournay [95] a permis de développer et d'étudier un algorithme associant une méthode d'itération sur les politiques du type de celle introduite par Cochet-Terrasson et Gaubert dans [84] et une méthode multigrille algèbrique, afin de résoudre des problèmes de jeux à somme nulle dégénérés, éventuellement posés directement sous forme discrète. L'ensemble des codes nouveaux associés, écrits en C, est déposé sur le projet “pigames” de la gforge et sera disponible librement.

Sylvie Detournay a en particulier implémenté et raffiné l'algorithme proposé dans [84] , en l'associant soit à des méthodes de résolution exacte de systèmes linéaires, soit à des méthodes multigrilles algébriques, en utilisant aussi des méthodes multigrilles multiplicatives pour le calcul de la mesure invariante de chaînes de Markov irréductibles, comme celles introduites par De Sterck. Ceci a permis l'obtention de résultats numériques dans le cas de discrétisations d'équations d'Isaacs associées à des jeux de poursuite déterministes ou aléatoires. Cela a aussi permis de tester de manière systématique l'algorithme sur des instances aléatoires de jeux de type Richman. Certains de ces résultats, ainsi que la présentation de l'algorithme (de manière plus concrète que dans [84] , et avec les détails d'implémentation) sont présentés dans [24] . Des details supplémentaires ainsi que la preuve de convergence de l'algorithme peuvent être trouvés dans [56] .

Des résultats récents de Ye ainsi que Hansen, Miltersen et Zwick montrent que l'algorithme d'itération sur les politiques, restreint à la classe des jeux à somme nulle (à 1 ou 2 joueurs) actualisés de facteur d'actualisation donné, est fortement polynomial. Dans [40] , [29] , on montre que ceci est le cas aussi pour l'algorithme d'itération sur les politiques pour les jeux à somme nulle et paiement moyen, restreint à la classe des jeux qui ont temps moyen de retour ou d'arrivée à un état donné borné. La preuve utilise des techniques de théorie de Perron-Frobenius non-linéaire, permettant de ramener le problème à paiement moyen à un problème actualisé (de facteur d'actualisation dépendant de l'état et des actions). La même technique permet aussi de traiter le cas de jeux à somme nulle actualisés dont le facteur d'actualisation peut dépendre de l'état et des actions et prendre éventuellement des valeurs supérieures à 1.

English version

Policy iteration is a powerful and well known algorithm to solve the dynamic programming equation associated to stochatic control (one player game) problems with infinite horizon criterion (Howard) or ergodic criterion (Howard and Denardo and Fox). It has recently been extended to degenerate two players problems (with ergodic payoff and in “multichain” cases) using ideas from max-plus algebra and nonlinear potential theory [84] . One basic iteration of the algorithm consists in solving a linear system the operator of which is monotone, but with a size which may be large since it comes from the discretization of a partial differential equation or since it is associated to a large size discrete problem arising from instance from the Web graph.

The PhD thesis of Sylvie Detournay [95] developped and studied an algorithm for degenerate two player games (that may come from a discrete time and finite state space model) combining a policy iteration such as the one introduced in [84] by Cochet-Terrasson et Gaubert, and an algebraic multigrid method (AMG). All new corresponding algorithms, coded in C, belong to the gforge project “pigames” and will be distributed openly.

In particular, Sylvie Detournay has implemented and refined the algorithm proposed in [84] , while associating it either to direct linear solvers, or to the AMG methods already used in the nondegenerate case, and using also multiplicative AMG methods for computing invariant measures of Markov chains, such as the one introduced by De Sterck. This allowed her to obtain numerical results in the case of discretisations of Isaacs equations associated to deterministic or stochastic pursuit games. This also allowed her to test systematically the algorithm on random instances of Richman type games.

Some of these results, together with the presentation of the algorithm (in a more practical manner than in [84] , with implementation details) are gathered in [24] . Additional details and the convergence proof of the algorithm can be found in [56] .

Recent results of Ye and Hansen, Miltersen and Zwick show that policy iteration for one or two player (perfect information) zero-sum stochastic games, restricted to instances with a fixed discount rate, is strongly polynomial. In [40] , [29] , we show that policy iteration for mean-payoff zero-sum stochastic games is also strongly polynomial when restricted to instances with bounded first mean return time to a given state. The proof is based on methods of nonlinear Perron-Frobenius theory, allowing us to reduce the mean-payoff problem to a discounted problem with state dependent discount rate. Our analysis also shows that policy iteration remains strongly polynomial for discounted problems in which the discount rate can be state dependent (and even negative) at certain states, provided that the spectral radii of the nonnegative matrices associated to all strategies are bounded from above by a fixed constant strictly less than 1.

Algorithmique des polyèdres tropicaux/Algorithmics of tropical polyhedra

Participants : Xavier Allamigeon, Pascal Benchimol, Stéphane Gaubert, Eric Goubault [CEA] , Michael Joswig [TU Darmstadt] .

X. Allamigeon, S. Gaubert, et E. Goubault, ont développé dans [63] , [16] plusieurs algorithmes permettant de manipuler des polyèdres tropicaux. Ceux-ci correspondent aux travaux décrits dans § 6.2.1 . Ils permettent notamment de déterminer les sommets et rayons extrêmes d'un polyèdre tropical défini comme intersection de demi-espaces, ou inversement, de calculer une représentation externe à partir d'un ensemble de générateurs. Ces algorithmes sont implémentés la bibliothèque TPLib (voir § 5.3 ).

Dans un travail en cours de X. Allamigeon, P. Benchimol, S. Gaubert et M. Joswig, nous avons défini un analogue tropical de l'algorithme du simplexe qui permet de résoudre les problèmes de programmation linéaire tropicale, i.e.

\begin{matrix} \begin{matrix} minimiser & max_{1 \leq j \leq n} c_{j} + x_{j} \\ sous les contraintes & max (max_{1 \leq j \leq n} (a_{i j}^{+} + x_{j}), b_{i}^{+}) \geq max (max_{1 \leq j \leq n} (a_{i j}^{-} + x_{j}), b_{i}^{-}), i = 1, \dots, m \\ x \in {(ℝ \cup {- \infty})}^{n} \end{matrix} \end{matrix}

(12)

où les entrées du programme $a_{i j}^{\pm}$ , $b_{i}^{\pm}$ , $c_{j}$ sont à valeur dans $ℝ \cup {- \infty}$ . Ces problèmes sont intimement liés à la résolution de jeux répétés à somme nulle, puisque résoudre un jeux à paiement moyen déterministe est équivalent à déterminer si un problème de programmation linéaire admet un point réalisable [57] .

Comme son homologue usuel, le simplexe tropical pivote entre des points de base (tropicaux), jusqu'à atteindre l'optimum du programme linéaire. La différence fondamentale avec l'algorithme du simplexe classique est que le pivotage est réalisé de manière purement combinatoire, en s'appuyant sur des descriptions locales du polyèdre tropical défini par les contraintes à l'aide d'(hyper)graphes orientés. Ceci nous a permis de prouver que l'étape de pivotage (incluant le calcul des coûts réduits) a la même complexité en temps que dans l'algorithme classique, i.e. $O (n (m + n))$ . Ceci est d'autant plus inattendu que la structure des arêtes tropicales entre deux points de base sont géométriquement plus complexes (elles sont constituées de plusieurs segments de droite, jusqu'à $n$ ).

Le simplexe tropical a la propriété d'être fortement corrélé avec l'algorithme du simplexe classique. Grâce au principe de Tarski, le simplexe usuel peut être transposé tel quel sur des programmes linéaires dont les coefficients en entrée sont non plus des réels, mais sur le corps $ℝ {{t}}$ des séries de Puiseux généralisées en une certaine indéterminée $t$ , i.e. des objets de la forme :

c_{α_{1}} t^{α_{1}} + c_{α_{2}} t^{α_{2}} + \dots

(13)

où les $α_{i}$ sont des réels, les coefficients $c_{α_{i}}$ sont des réels non-nuls, et où la séquence des $α_{1}, α_{2}, \dots$ est strictement croissante et soit finie, soit non-bornée. L'opposé du plus petit exposant de la série, $- α_{1}$ , est appelé valuation de la série. Un programme linéaire tropical est dit relevé en un problème linéaire sur $ℝ {{t}}$ , si la valuation des coefficients en entrée de ce dernier sont égaux aux coefficients du problème tropical. Dans nos travaux, nous avons établi la correspondance suivante entre le simplexe usuel et le simplexe tropical : pour tout programme linéaire tropical générique, l'algorithme du simplexe tropical trace l'image par la valuation du chemin sur l'algorithme du simplexe usuel sur n'importe quel relèvement du programme tropical dans $ℝ {{t}}$ .

Les résultats présentés ci-dessus sont rassemblés dans le preprint [43] . Ils ont fait l'objet de plusieurs présentations en conférence [32] , [33] .

Ces résultats ouvrent la possibilité de relier la complexité du l'algorithme du simplexe usuel avec celles des jeux déterministes. Pour ces derniers, on sait seulement que leur résolution est dans la classe de complexité $𝖭𝖯 \cap 𝖼𝗈𝖭𝖯$ , et on ignore s'il existe un algorithme de complexité polynomiale. De façon similaire, on ne sait pas caractériser de façon précise la complexité de l'algorithme du simplexe usuel. Celle-ci dépend fortement de la règle de pivotage utilisée, et il existe des problèmes sur lesquelles de nombreuses règles de pivotage ont une complexité exponentielle. L'existence d'une règle de pivotage qui permettrait au simplexe de terminer en temps polynomial sur n'importe quelle instance est encore aujourd'hui une question ouverte.

Dans un deuxième travail, nous avons relié les deux problèmes ouverts précédents, grâce à l'algorithme du simplexe tropical. Nous avons en effet exhibé une classe de règles de pivotage, dites combinatoires, et avons montré qu'elles satisfont la propriété suivante : s'il existe une règle de pivotage combinatoire qui permet de résoudre tout problème de programmation linéaire usuel en temps polynomial, alors on peut résoudre les jeux à paiement moyen en temps (fortement) polynomial. Le terme combinatoire fait référence au fait que la règle est définie en fonction du signe des mineurs de la matrice des coefficients du problème linéaire.

Ce dernier résultat est décrit dans le preprint [42] .

English version

X. Allamigeon, S. Gaubert, and E. Goubault, have developed in [63] , [16] algorithms allowing one to manipulate tropical polyhedra. They correspond to the contributions described in § 6.2.1 . In particular, they can be used to determine the vertices and extreme rays of a tropical polyhedron defined as the intersection of half-spaces, or inversely, to compute an external description from a set of generators. These algorithms are implemented in the library TPLib (see § 5.3 ).

In an ongoing work of X. Allamigeon, P. Benchimol, S. Gaubert and M. Joswig, we introduced a tropical analogue of the simplex algorithm, allowing one to solve problems of tropical linear programming, which are of the form (12 ), where the coefficients of the program, $a_{i j}^{\pm}$ , $b_{i}^{\pm}$ , $c_{j}$ take their values in the max-plus semiring $ℝ \cup {- \infty}$ . These problems are closely related to mean payoff games, as solving a game of this kind is equivalent to determine whether a tropical linear program admits a feasible point [57] .

Like the classical simplex algorithm, the tropical simplex algorithm performs pivoting operations between basis points, until it reaches the optimum. The main discrepancy with the classical algorithm is that the pivoting is now a purely combinatorial operation, which is performed by using a local description of the polyhedron by a directed hypergraph. This allowed us to show that a tropical pivoting step (including computing reduced costs) has the same complexity as in the classical simplex algorithm, i.e. $O (n (m + n))$ . This is all the more surprising as the tropical edge between two given points has a geometrically more complex structure in the tropical case (it is constituted of up to $n$ ordinary line segments).

The tropical simplex algorithm turns out to be closely related to the classical one. Thanks to Tarski's principle, the latter is also valid for linear programs over the field $ℝ {{t}}$ of generalized Puiseux series in an indeterminate $t$ . These series are of the form (13 ), where the $α_{i}$ are real numbers, the coefficients $c_{α_{i}}$ are non-zero reals, and the sequence $α_{1}, α_{2}, \dots$ is strictly increasing and either finite or unbounded. The opposite of the smallest exponent of the series, $- α_{1}$ , is called valuation. A tropical linear program is said to be lifted to a linear program over $ℝ {{t}}$ if the valuation of the coefficients of the latter are sent to the coefficients of the former by the valuation. We showed the following relation between the classical simplex algorithm and its tropical analogue: for all generic tropical linear program, the tropical simplex algorithm computes the image by the valuation of the path of the classical simplex algorithm, applied to any lift in $ℝ {{t}}$ of the original program.

These results are gathered in the preprint [43] . They have been presented in several conferences [32] , [33] .

They allow one to relate the complexity of the classical simplex algorithm with the complexity of mean payoff games. The latter is unsettled, these games are known to be in the class $𝖭𝖯 \cap 𝖼𝗈𝖭𝖯$ but it is not known whether they can be solved in polynomial time. Basic complexity issues regarding the classical simplex algorithm are also unsettled: its execution time depends on the pivoting rule, and many pivoting rules have been shown to have exponential worst case behaviors. The existence of a pivoting rule leading the simplex to terminate in polynomial time is still an open question.

In a second work, we related these two open questions, via the tropical simplex algorithm. We identified a class of pivoting rules, which are said to be combinatorial, and show that they have the following property: if there is a combinatorial pivoting rule allowing one to solve every classical linear programming problem in polynomial time, then, mean payoff games can be solved in (strongly) polynomial time. By combinatorial, we mean that the rule depends only of the coefficients of the system through the signs of minors of the coefficients matrix.

This result is given in the preprint [42] .

Problèmes d'accessibilité dans les hypergraphes orientés et leur complexité/Reachability problems in directed hypergraphs and their complexity

Participant : Xavier Allamigeon.

Les hypergraphes orientés sont une généralisation des graphes orientés, dans lesquelles chaque arc relie un ensemble de sommets à un autre. Ils jouent un rôle important dans les travaux récents sur la convexité tropicale (voir § 6.2.1 ), puisqu'ils offrent une représentation naturelle des cônes définis sur le sous-semi-anneau booléen $𝔹 = {- \infty, 0}$ .

Dans un travail de X. Allamigeon [15] , on étudie la complexité de problèmes d'accessibilité sur les hypergraphes orientés. Nous introduisons un algorithme de complexité presque linéaire permettant de déterminer les composantes fortement connexes terminales (qui n'accèdent à aucune autre composante si ce n'est elles-mêmes) d'un hypergraphe.

Nous établissons également une borne inférieure sur-linéaire sur la taille de la réduction transitive de la relation d'accessibilité dans les hypergraphes. Cela indique que la relation d'accessibilité dans les hypergraphes orientés est combinatoirement plus complexe que celle des graphes orientés. Cela suggère aussi que des problèmes comme le calcul des composantes fortement connexes est plus difficile sur les hypergraphes que sur les graphes. Nous mettons d'ailleurs en évidence une réduction en temps linéaire du problème du calcul des ensembles minimaux dans une famille d'ensembles donnée, vers le problème du calcul de toutes les composantes fortement connexes d'un hypergraphe. Le problème du calcul des ensembles minimaux a été largement étudié dans la littérature [155] , [175] , [174] , [156] , [157] , [158] , [101] , [69] , et aucune algorithme en temps linéaire n'est connu à ce jour.

English version

Directed hypergraphs are a generalization of directed graphs, in which the tail and the head of the arcs are sets of vertices. It appears that they play an important role in the recent works on tropical convexity (see § 6.2.1 ), since they offer a natural representation of cones defined over the boolean sub-semiring $𝔹 = {- \infty, 0}$ .

In a work of X. Allamigeon [15] , we study the complexity of reachability problems on directed hypergraphs. We introduce an almost linear-time algorithm allowing to determine the terminal strongly connected components (a component is said to be terminal when no other component is reachable from it).

We also establish a super-linear lower bound over the size of the transitive reduction of the reachability relation in directed hypergraphs. This indicates that the reachability relation is combinatorially more complex in directed hypergraphs than in directed graphs. This also suggests that reachability problems such as computing all strongly connected components are likely to be harder in hypergraphs than in graphs. Besides, we show that the minimal set problem can be reduced in linear time to the problem of computing all strongly connected components in hypergraphs. The former problem consists in finding all minimal sets among a given family of sets. It has been well studied in the literature [155] , [175] , [174] , [156] , [157] , [158] , [101] , [69] , and no linear time algorithm is known.

Approximation max-plus de fonctions valeurs et équations de Riccati généralisées/Max-plus approximation of value functions and generalized Riccati equations

Participants : Stéphane Gaubert, Zheng Qu, Shanjian Tang [Fudan University, Shanghai] .

La thèse de Zheng Qu, supervisée par S. Gaubert et S. Tang, a porté sur le développement de méthodes tropicales en programmation dynamique approchée [12] .

Les méthodes d'approximation max-plus conduisent à approcher la fonction valeur d'un problème de contrôle ou de jeux par un supremum d'un nombre fini de formes quadratiques, voir notamment [113] . On s'intéresse ici à l'analyse théorique (complexité) ainsi qu'à l'amélioration de ces méthodes. Dans certains cas, ces formes quadratiques sont propagées par des flots d'équations de Riccati généralisées. Afin d'effectuer des analyses d'erreur, on exploite les propriétés de contraction du flot de Riccati pour certaines métriques connues sur le cône des matrices positives, et en particulier pour la métrique de Thompson. Celle-ci n'est rien d'autre que $d_{T} (A, B) = {∥ log spec (A^{- 1} B) ∥}_{\infty}$ , où $spec$ désigne la suite des valeurs propres d'une matrice, et $log$ s'entend composante par composante.

Ceci nous a amené à étudier le problème général du calcul du taux de contraction d'un flot monotone sur un cône, pour la métrique de Thompson. En effet, les propriétés de contraction de l'équation de Riccati standard sont connues (résultats de Bougerol pour la métrique Riemanienne invariante, et de Wojtowski pour la métrique de Thompson), mais les techniques de preuve employées dans ce cadre (semigroupes de matrices symplectiques) ne s'étendent pas aux équations généralisées.

On donne dans [114] , [28] une formule explicite générale pour le taux de contraction pour la métrique de Thompson d'un flot monotone, faisant seulement intervenir le générateur du flot et sa dérivée. On a notamment appliqué ce résultat à une équation de Riccati généralisée associé à des problèmes de contrôle stochastique avec critère quadratique, dans lesquels la dynamique comporte un terme bilinéaire en le contrôle et le bruit. On a montré dans ce cas que la métrique de Thompson est la seule métrique de Finsler invariante pour laquelle le flot est nonexpansif, et l'on a caractérisé la constante de contraction locale.

Une application de ces résultats à l'analyse d'une méthode de réduction de la malédiction de la dimension, dûe à McEneaney, a été donnée dans [28] , [50] .

English version

The PhD work of Zheng Qu, supervised by S. Gaubert and S. Tang, dealt with the development of tropical methods in approximate dynamic programming [12] .

The max-plus methods lead to approach the value function of an optimal control or zero-sum game problem by a supremum of a finite number of quadratic forms, see in particular [113] . We are interested here in the theoretical analysis (complexity) of this class of methods, as well as of their improvement. In certain cases, the quadratic forms are propagated by the flows of generalized Riccati equations. In order to perform an error analysis, we need to use some contraction properties of the Riccati flow, for certain known metrics on the space of positive matrices, like Thompson's metric. The latter is nothing but $d_{T} (A, B) = {∥ log spec (A^{- 1} B) ∥}_{\infty}$ , where $spec$ denotes the sequence of eigenvalues of a matrix, and $log$ is understood entrywise.

This led us to study the general problem of computing the contraction rate of an order-preserving flow on a cone, with respect to Thompson's metric. Indeed, the contraction properties of the standard Riccati flow are known (theorem of Bougerol for the invariant Riemanian metric, of Wojtowski for the Thompson's metric), but the proof of these properties (based on symplectic semigroups) does not carry over to generalized Riccati equations.

We gave in [114] ,[28] a general explicit formula for the contraction rate with respect to Thompson's metric of an order-preserving flow, involving only the generator of the flow and its derivative. We applied in particular this result to a generalized Riccati equation, associated to stochastic optimal control problems with a quadratic cost and a bilinear dynamics (presence of a bilinear term between the control and the noise). We showed that in this case, the Thompson's metric is the only invariant Finsler metric in which the generalized Riccati flow is nonexpansive, and we characterized the local contraction rate of this flow.

Z. Qu has applied these results in [28] , [50] to the analysis of a method of reduction of the curse of dimensionality, introduced by McEneaney.

Points fixes d'applications monotones homogènes et jeux à somme nulle/Fixed points of order preserving homogeneous maps and zero-sum games

Participants : Marianne Akian, Stéphane Gaubert, Antoine Hochart.

Les opérateurs de Shapley sont les opérateur de programmation dynamique pour des jeux à somme nulle, ce sont précisément les opérateurs qui préservent l'ordre et commutent avec l'addition d'une constante. Le travail de M2 d'Antoine Hochart a traité d'une sous-classe d'opérateurs de Shapley, qui commutent en outre avec la multiplication par une constante positive. Nous les appellerons ici sans-paiement, car ils apparaissent dans des classes de jeux où les paiements instantanés sont nuls - le paiement a lieu seulement le dernier jour (recursive games). Ils apparaissent aussi dans l'étude structurelle de familles paramétriques de jeux répétés avec espace d'état fini et information parfaite, si l'on suppose par exemple que les probabilités de transitions sont fixées, mais que les paiements sont des paramètres. À toute famille paramétrique de jeux est associée un opérateur sans paiements et les points fixes de ce dernier sont précisément les vecteurs de paiement moyen réalisables. Un problème de base consiste à vérifier si un opérateur sans paiement n'a que des points fixes triviaux (réduits à des multiples du vecteur unité), et si possible, de déterminer des caractéristiques plus précises de l'ensemble des points-fixes, par exemple, savoir s'il existe un point fixe d'argmin donné. Le premier problème est connu être co-NP-complet, même pour des jeux déterministes. Nous montrons cependant que le second problème (point fixe d'argming prescrit) peut être résolu en temps polynomial. La preuve repose sur la construction d'une correspondance de Galois entre les faces d'un hypercube qui sont invariantes par l'opérateur, ainsi que sur une réduction à un problème d'accessibilité dans un hypergraphe orienté.

English version

Shapley operators are the dynamic programming operators of zero-sum stochastic games, they can be characterized as order preserving maps commuting with the addition of a constant. The M2 work of Antoine Hochart has dealt with a subclass of Shapley operators which are characterized by the property of commuting with the multiplication by a positive constant. We call them payment-free, as they arise in the study of recursive games, in which the payment only occurs when the game stops. They also arise in the study of structural properties of parametric mean payoff games (the transition probabilities are fixed, not the transition payoffs) with finite action spaces and perfect information: their fixed point set can be shown to give all the possible mean payoff vectors of such games. A basic problem is to check whether the fixed point set of such an operator is trivial (reduced to the multiples of the unit vector), and more precisely to determine its characteristics, for instance decide whether there is a fixed point with a prescribed $argmin$ . The former problem is already known to be co-NP-complete, even for deterministic games. We showed however that the latter can be solved in polynomial time. The proof relies on the construction of a Galois connection between faces of the hypercube that are invariant by the operator, and on a reduction to a reachability problem in a directed hypergraph.

Previous |

Home | Next next